인공지능 & 소프트웨어

특허의 관점에서 보는 디퓨전 모델 - 생성 모델 혁신의 시대에서 얻는 특허 인사이트

제목 없음.png

Summary

디퓨전 모델과 관련하여 출원된 특허들을 분석하고, 디퓨전 모델과 관련된 기술의 권리화 동향 및 향후 전망을 전달하는 칼럼 - 세번째

디퓨전 모델을 활용한 어떤 특허들이 미래에 출원될 수 있을지 미리 예상해볼 수 있을까요? 본 칼럼은 ‘특허의 관점에서 보는 디퓨전 모델’의 마지막 회차로, 디퓨전 모델과 관련된 기술들의 최신 연구동향을 살펴보고 향후 디퓨전 모델 관련 특허의 전망에 대해 살펴보고자 합니다.

 

디퓨전 모델 관련 기술의 연구동향

앞서 비디오 도메인에서 디퓨전 모델과 관련된 특허에서 설명하였듯이, 생성 모델을 이용하여 결과물을 잘 생성하기 위해서는 데이터의 특성을 잘 나타낼 수 있는 의미 정보(Semantic information)가 중요합니다. 의미 정보(Semantic information)를 통해 데이터의 의도, 개념, 상호 관계 등을 알 수 있고, 생성 모델은 이를 이용하여 결과물을 잘 생성할 수 있습니다. 예를 들어, 이미지는 픽셀들 간의 관계를 의미 정보(Semantic information)로 가질 수 있으며, 비디오는 픽셀들 간의 관계 외에도 각 프레임의 시계열 정보, 프레임들 간의 관계를 의미 정보(Semantic information)로 포함하고 있으므로 비디오 도메인은 이미지 도메인과 비교하여  중요한 정보의 양이 많다고 볼 수 있습니다.

 

<단일 이미지:픽셀들 간의 관계를 고려>                       <비디오:시계열 정보 및 프레임들 간의 관계를 추가적으로 고려>
  <단일 이미지:픽셀들 간의 관계를 고려>              <비디오:시계열 정보 및 프레임들 간의 관계를 추가적으로 고려>
                                                                                                                                        (사진 Source:픽사베이)

따라서, 디퓨전 모델을 통해 비디오 도메인의 결과물을 생성할 때 픽셀들 간의 관계 외에도 각 프레임들 간 관계를 고려하여 움직임이 없는 부분은 통일되게 표현하고, 움직임이 존재하는 부분에만 변화를 주면서 각각의 프레임들을 생성하여야 하므로, 비디오 도메인은 이미지 도메인에 비해 학습 난이도가 높고, 결과물의 퀄리티를 높이기 어려운 문제가 존재합니다. 

 

이와 같은 문제는 비디오 도메인에 한정된 문제가 아니라 3D 이미지, 오디오 데이터 등 2D 이미지에 비해  중요한 정보를 많이 가진 데이터 도메인들에서 공통적으로 나타나고 있습니다.

 

<Imagen Video (Source: Youtube, Google’s Video AI: Outrageously Good! 🤖)>

<Imagen Video (Source: Youtube, Google’s Video AI: Outrageously Good! 🤖)>

한편 이러한 문제를 해결하기 위해 다양한 연구 또한 진행되었습니다. 예를 들어, 이미지 도메인에서 디퓨전 모델을 이용한 Imagen을 통해 놀라운 성과로 주목을 받았던  Google은 2022년에 텍스트로부터 비디오를 생성할 수 있는 Imagen Video(링크)를 공개하였습니다. 
<CVPR 카테고리별 논문 수 top10><CVPR 카테고리별 논문 수 top10>

또한, 최근 개최된 컴퓨터 비전과 패턴 인식 분야의 학회인 ‘CVPR 2023’에 제출된 논문들을 보면, 가장 많은 논문이 제출된 분야는 “3D 이미지 생성 분야”, 그 다음이 “비디오 생성 연구 분야”라고 합니다. 이런 상황을 고려하면 현재 이미지 이외의 데이터 도메인에 적용될 수 있는 디퓨전 모델에 연구가 매우 활발하게 진행되고 있는 것을 짐작해볼 수 있습니다.

 

다른 한편으로, 디퓨전 모델을 이용하기 위한 다양한 연구들 중 스테이블 디퓨전(Stable diffusion)을 통해 디퓨전 모델의 고질적인 문제였던 생성 속도 문제 및 경량화 문제가 어느정도 해결되었습니다. 또한 Open Ai의 챗 GPT(GPT-4), 구글의 Bard 등의 많은 사용자가 쉽게 접근 가능한 LLM 모델들이 멀티 모달(Multi-Modal) 기능을 지원하기 시작하며, 디퓨전 모델들의 응용 방향에 다양한 가능성이 열리게 되었습니다.

 

특허의 경우 등록되거나 출원인이 조기 공개를 신청하지 않는 한 기본적으로 ‘출원일로부터 1년 6개월 후’에 공개공보가 발행됩니다. 따라서 최신 기술에 대한 특허는 출원이 이루어지자마자 바로 현황을 파악하기는 어렵습니다. 하지만 학계에서 이미지 이외의 데이터 도메인과 관련 연구가 매우 활발하게 진행되고 있는 만큼, 다양한 도메인에 대해 디퓨전 모델을 적용한 특허가 이미 많이 출원되었고 아직 공개되지 않은 상태임을 짐작해 볼 수 있습니다.

 

<이 이미지가 이상한 이유? (Source: GPT-4 Technical report)>

<이 이미지가 이상한 이유? (Source: GPT-4 Technical report)>

앞서 소개한 특허들 및 디퓨전 모델과 관련된 최신 연구동향을 고려할 때 다양한 모달리티에서 디퓨전 모델을 활용한 발명들, 또는 향후 디퓨전 모델들과 다른 모델들을 결합한 발명들이 많이 출현할 것으로 예상됩니다. 따라서 디퓨전 모델과 관련된 기술들을 제품화하는 경우 디퓨전 모델의 응용과 관련된 연구 동향을 미리 예측하고 특허를 통해 권리를 확보하는 것이 중요하게 될 것입니다.

 

지금까지 3회의 칼럼을 통해 디퓨전 모델의 의미, 디퓨전 모델과 관련된 특허의 출원 현황에 대한 정량적 분석 및 정성적 분석, 그리고 디퓨전 모델과 관련된 특허의 향후 전망에 대해 소개했습니다. 

 

지금까지 살펴본 바와 같이 디퓨전 모델과 관련된 특허 출원의 수는 2021년을 기점으로 폭발적으로 증가하였으며 특허의 내용도 단순 이미지 도메인에서 비디오, 오디오와 같은 다른 도메인으로 확장되고 있는 추세입니다. 또한 최신 연구 동향을 고려할 때 디퓨전 모델과 관련된 특허 출원의 증가 추세는 한동안 이어질 것으로 예상됩니다.

 

논문 등을 통해 먼저 공개된 기술의 경우, 후속적으로 특허 출원이 뒤따르지 않는다면 공들여 연구한 기술에 대하여 독점적인 권리를 주장할 수 없습니다. 특히 디퓨전 모델과 같은 경쟁이 치열한 최신 기술 분야의 경우에는 연구의 결과물을 미리 권리화하는 작업이 더욱 중요하다고 할 것입니다.

분석리포트특허 교육소프트웨어트렌드특허

"질문이 있으세요?"

"질문이 있으세요?"